组合优化已应用于从航空航天到交通规划和经济学等众多领域。其目标是在有限的可能性集合中找到最佳解决方案。组合优化面临的众所周知的挑战是状态空间爆炸问题:可能性的数量随着问题规模的增加而呈指数增长,这使得解决大问题变得困难。近年来,深度强化学习 (DRL) 已显示出其在设计专门用于解决 NP 难组合优化问题的良好启发式方法方面的前景。然而,当前的方法有两个缺点:(1)它们主要关注标准旅行商问题,不能轻易扩展到其他问题,(2)它们仅提供近似解,没有系统的方法来改进它或证明最优性。在另一个背景下,约束规划 (CP) 是解决组合优化问题的通用工具。基于完整的搜索过程,如果我们允许执行时间足够长,它将始终找到最佳解决方案。一个关键的设计选择是分支决策,它决定了如何探索搜索空间,这使得 CP 在实践中变得不可或缺。在这项工作中,我们提出了一种基于 DRL 和 CP 的通用混合方法来解决组合优化问题。我们方法的核心是基于动态规划公式,它充当了两种技术之间的桥梁。我们通过实验表明,我们的求解器可以有效解决两个具有挑战性的问题:带有时间窗口的旅行商问题和 4 矩投资组合优化问题。获得的结果表明,引入的框架优于独立的 RL 和 CP 解决方案,同时与工业求解器具有竞争力。
主要关键词